32. 标准化输出

数值与分类

让我们多了解一些标签。在可视化图像数据之后,你会看到每个图像都有一个附加的标签:“日”或“夜”,这些被称为 分类值

分类值通常是表示关于图像各种特征的文本值。几个例子是:

  • 某个“动物”变量,其值为“猫”、“老虎”、“河马”和“狗”。
  • 某个“颜色”变量,其值为“红色”、“绿色”和“蓝色”。

每个值代表不同的类别,大多数收集的数据都以这种方式标记!

这些标签对于我们来说是描述性的,但对于分类任务可能是低效的。许多机器学习算法没有;他们要求所有的输出都是数字的。数字很容易比较和存储在内存中,为此,我们经常需要将分类值转换为 数字标签 。你会遇到两种主要的方法:

  1. 整数编码
  2. 独热编码

整数编码

整数编码意味着为每个类别赋值一个整数值。所以,day = 1 和 night = 0。这是分离二进制数据的好方法,并且是我们为昼夜影像所做的。

独热编码

当有两个以上的值分开时,经常使用独热编码。一个热门标签是一个一维列表,是类的数量的长度。假设我们正在看动物变量,其值为“猫”、“老虎”、“河马”和“狗”。这个类别有四个类,所以我们的一个独热编码将是一个长度为四的列表。该列表将全部为 0 和 1;1 表示某个图像是哪一类。

例如,由于我们有四个类(猫、老虎、河马和狗),我们可以按照这个顺序给出一个列表:[猫值、老虎值、河马值、狗值]。一般来说,顺序无关紧要。

如果我们有一张图像,它的独热编码是 [0, 1, 0, 0] ,这是什么意思?

按照[猫值、老虎值、河马值、狗值]的顺序,这个标签表明这是一头老虎的形象!再举一个例子,标签 [0, 0, 0, 1] 呢?

QUESTION:

对于[猫值、老虎值、河马值、狗值]的顺序,独热编码 [0, 0, 0, 1] 指的是?

SOLUTION:

NOTE: The solutions are expressed in RegEx pattern. Udacity uses these patterns to check the given answer